AI产业链地图·知识库 NVIDIA Triton Inference Server · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/NVIDIA Triton Inference Server

更新 2026·06·17

概念技术 / 术语

NVIDIA Triton Inference Server

Triton Inference Server · Triton

Triton Inference Server 是一个开源的推理服务化框架，支持多种深度学习框架的模型部署，提供企业级推理服务能力（动态批处理、模型集成、多模型并发、HTTP/gRPC API、监控）。

NVIDIA Triton Infe CONCEPT · 概念

首次提出: 2018
关键参与方: [[NVIDIA]]
反向引用: 3 处 · 来自 2 页

归属推理服务模型服务化NVIDIA第四层

NVIDIA Triton Inference Server

NVIDIA 推出的开源推理服务框架；支持 NVIDIA TensorRT-LLM、PyTorch、TensorFlow、ONNX 等多种模型格式；企业级 GPU 推理服务主导。

定义

Triton Inference Server 是一个开源的推理服务化框架，支持多种深度学习框架的模型部署，提供企业级推理服务能力（动态批处理、模型集成、多模型并发、HTTP/gRPC API、监控）。

核心能力

多框架支持：TensorRT / PyTorch / TensorFlow / ONNX / OpenVINO 等
动态批处理（Dynamic Batching）：自动拼批以提升 GPU 利用率
模型集成（Model Ensemble）：多个模型组合成单一推理 pipeline
多模型并发：多个模型在同一 GPU 共享算力
HTTP / gRPC API
指标监控 + 可观测性
Python / C++ / Java / Go 客户端 SDK

主要玩家

NVIDIA（开发与维护）
主要部署场景：金融、医疗、零售、汽车智能化等需要多模型协同推理的企业场景

在 AI 产业链中的角色

企业级 GPU 推理服务主导：在需要多模型协同推理的复杂场景中优势明显
与 NVIDIA TensorRT-LLM 配合：TensorRT-LLM 负责优化，Triton 负责服务化
MaaS 基础设施：是众多云厂商和 AI 公司构建模型服务平台的底层框架

演进历史

2018 首发（彼时名为 TensorRT Inference Server）
2020 改名 Triton Inference Server，开源
2024 与 TensorRT-LLM、NIM (NVIDIA Inference Microservices) 深度集成
2025 适配 Blackwell GPU 架构

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 3

按引用量 ↓

… M]] **开源王者**（UC Berkeley，GitHub 45,000+ Star） - [[硅基流动]] 自研 / [[DeepSpeed]] / [[SGLang]] — 独立服务商 + 开源新势力 ### 模型服务化平台 - NVIDIA Triton Inference Server **企业级 GPU 推理服务主导** - [[Hugging Face]] Optimum — 全球最大开源模型社区 + 模型分发 - [[Ray]] / [[Anyscale]] — 分布式推理框架 …

… **推理引擎核心算法**：[[PagedAttention]] / [[Continuous Batching]] / [[投机解码]] / [[FlashAttention]] / [[KV-Cache]] 3. **模型服务化框架**：NVIDIA Triton Inference Server / [[vLLM]] / [[Ray]] / [[SGLang]] / [[DeepSpeed]] 4. **端侧部署**：[[ONNX Runtime]] / [[OpenVINO]] / [[llama.cpp]] / [[云-边-端 …

查看原文 →

… 4** 持续更新，支持 Llama / Mixtral / Mistral / DeepSeek 等主流开源模型 - **2025** 与 NVIDIA Triton 集成更深，Blackwell GPU 原生优化 ## 相关概念 - NVIDIA Triton Inference Server- [[vLLM]] - [[PagedAttention]] - [[CUDA 生态]] - [[模型量化]] ⚔ competitor:: [[vLLM]] …

查看原文 →